第2章 遺伝と進化に関する基礎知識
https://gyazo.com/be37df568f4f6e56cff7f5402add1cef
2.1 はじめに
2.1.1 なぜ進化の考え方が重要なのか
これらの違いはもともと1個体の生殖系列細胞で起こった突然変異に由来しており、ヒトの個人間の遺伝的な差異をもたらす原因の多くを担っている ヒトゲノムの突然変異率はそれほど高くないので、これらの変異は、数十年〜数百年前程度のごく最近起こったものではなく、数万年から数十万年前に起こり、時間をかけて広まったものがほとんど
両者のゲノムには、塩基配列レベルではおよそ1.2%の違いが見られるが、これらの違いはどのようにしてゲノムに蓄積されていったのか
2.1.2 二つのレベルでの進化
https://gyazo.com/5f3cde1ef27640a1cdd4e13f62f1d145
短期的な進化と長期的な進化を支配する機構は本来同じものであるはずだ
しかし、それぞれの過程を考えるための数理的なモデルは大きく異なっている
種レベルでの遺伝情報の進化を扱う学問分野
集団遺伝の理論は、生物の進化理論を構築するのに重要なだけでなく、現存する生物から得られた遺伝情報を解析するための基盤にもなる
これらの手法は、ヒトの遺伝的な個人差を扱う医学や、遺伝情報を用いた生態学分野においても盛んに用いられている 種より上のレベルでの遺伝情報の進化を扱う学問分野
種より上のレベルでは、種間の比較を行うことが基本であるので、種内の多様性については目をつぶり、問題を単純化する
中立説は遺伝情報の進化様式を定式化し応用する基盤となっているが、そのなかの重要な原則の一つは、「進化的に大切な遺伝情報や構造は保存される」というもの
2.2 短期的な進化(集団遺伝)
2.2.1 集団内に見られる変異
2.2.2 突然変異と遺伝的変異
集団内の個体の塩基配列の違いは突然変異が起こったということが予想される 2. アレル頻度が上昇する
3. 集団中のすべての個体に新しいアレルが広まる
進化というのはすべて上記の繰り返しによって起こると考えられる
ヒトとチンパンジーのゲノム塩基配列にはおよそ1.2%の違いがあることが知られている ヒトゲノムのサイズを$ 3.2\times10^9bpとするとおよそ3840万塩基の違いが存在
これらの違いはのほとんどは、もともと1個体の生殖系列細胞で起こった突然変異に起因している アレル頻度の上昇
自然選択には2種類
有利なアレルが集団中に広まる確率は、変異が有利でも不利でもない中立(neutral)な状態よりも高くなるだろう 変異が不利な場合
致死性の変異から、生存率や産仔数が減少するレベルまで様々
タンパク質のアミノ酸配列が変化する場合や遺伝子発現の転写調節領域の変異は自然選択の影響を受ける可能性があるが、中立的に進化する可能性もある
以上の議論はSNP以外の変異(重複、挿入、欠失など)についても同様に行うことができる 2.2.3 ハーディ-ワインベルグの法則
他の集団と隔離された十分に大きな集団では、任意交配が行われており、変異が中立であれば、次世代の遺伝子頻度が前の世代の遺伝子頻度と同じになる もう1点、任意交配以外に新しい突然変異が起こらないという条件も必要であるが、塩基レベルの突然変異率はとても低いことがわかっているので、この場合は条件をほぼ満たしていると考える
アレルAとTの二種類が存在するSNPの例
ハーディ-ワインベルグの法則が成立する条件下では、Aのアレル頻度を$ pとすると次世代の遺伝子の頻度は
ホモ接合体AAについて$ p^2
ヘテロ接合体ATについて$ p(1-p)
ホモ接合体TTについて$ (1-p)^2
AAの個体が$ x人、ATの個体が$ y人、TTの個体が$ z人いるとする
Aのアレル頻度: $ (2x+y)/2(x+y+z)
Tのアレル頻度: $ (y+2z)/2(x+y+z)
ここで、ある遺伝子型の個体がどの遺伝子型の個体とも同じ割合で交配をすると仮定する
https://gyazo.com/cf5239b9506a0f280a19219bac53cd9e
次世代でのAA型の頻度は$ (2x+y)/2(x+y+z)の2乗となる
すなわち、ハーディ-ワインベルグの法則は、任意の$ x, y, zに対して成り立つことがわかる
遺伝子型の頻度は1世代で平衡に達するということ
すなわち、アレル頻度さえわかれば、遺伝子型の頻度は、HW平衡を仮定することにより近似できる
したがって、集団遺伝学の多くの解析では、個々の遺伝子型の頻度よりも、アレル頻度を中心に考えることが多い
集団の中にあるアレルの集まり
$ N個体からなる二倍体生物の遺伝子プールは、$ 2N個の遺伝子(アレル)をもつ
2.2.4 集団の大きさが有限である場合の進化
1. 有限集団における進化モデル
実際の生物集団の大きさは有限
ここでいう近親交配とは、数世代、数十世代というレベルで祖先を共有することも含む
ある人の$ n世代さかのぼった祖先の数は$ 2^n人いることになる
30世代では約10億人で、当時の全世界の人口よりも多い
祖先同士は赤の他人ではなく共通祖先をもつ遠い親戚同士→独立の個体として計算しているので間違っている
https://gyazo.com/26bd7c93f5e525f749a19696e1616fab
有限な大きさの集団内では、自然選択が働かず、新たな突然変異も起こらない場合、集団中の変異は遺伝的浮動によって時間とともにすべて消失するか、固定してしまう 集団に存在する個体数を$ Nとする
ここで使われる手段の個体数とは理論的な数で、実際の人口の数とは異なることに注意
交配にかかわり子孫を残す個体だけを考えた仮想的な集団の大きさ
一般に集団遺伝学で用いられる集団の大きさ
二倍体集団の場合、集団中の染色体の数は$ 2N本
集団中の個体数と集団の世代時間は一定で、任意交配を行うと仮定する
性別はいまのところ考えない
この集団が任意交配を行って次の世代を残すプロセスは、次のように近似される
1. 集団中からランダムに2個体を選び出す
2. それぞれからアレルを1つずつ取り出し、次世代の個体がもつアレルとする
3. ステップ1と2を$ N回繰り返し、次世代の$ N個体の遺伝子個体を決定する
https://gyazo.com/0a1692bf7b21e1b4f482044710d5ef71
このように理想的に進化する集団
非現実的なモデルであるが、問題をより複雑にした場合でも比較的よい近似を与えることが知られているので、集団遺伝学の解析の多くはこのモデルをもとに議論を行う
他のモデルも存在するが、現在ではあまり使われていない
このモデルでは手順からもわかるように、1つの個体が複数個体の子孫を残すこともできる一方、まったく次世代に子孫を残せない個体も出てくる
ある遺伝子配列に変異(SNP)があり、2種類のアレル、AとTがあるとしよう
もともとのアレルをA、変異型のアレルをTとし、Aのアレル頻度を$ pとする
新しく突然変異が起こった場合、Tの初期頻度は$ 1/2Nとなる
頻度$ pをとるアレルの次世代での頻度は、1世代でどのように変化するだろうか
https://gyazo.com/22b7647fdc207d4bbcd5d7879107f82d
この過程は$ 2N個のボールが入った箱から、取り出したボールを箱に戻しながら、合計$ 2N回ボールを取り出す作業と同じであるとみなせる
この分布の期待値は$ 2Np、分散は$ p(1-p)/2Nとなる
$ Nが有限である限り、アレル頻度はふらふらと上下し、試行回数が増えていくと、いつかは頻度$ 0か$ 1に到達する
https://gyazo.com/7b263f7c255a16349d854b4e7f8aa924
一度変異が失われるか固定されるかすると、その後は新たな変異が起こるまで多型は起こらない
この偶然の力によって起こるアレル頻度の世代ごとの変化を、遺伝的浮動と呼ぶ このとき、分散はNに反比例するので、Nが大きいほど、すなわち大きな集団ほど、世代あたりのアレル頻度変化は小さくなる
遺伝的浮動は、遺伝子レベルで進化が起こる原動力の主たるものの一つ
現実の生物集団の塩基配列には、多くの場合遺伝的変異が見られる
ゲノムでは世代ごとに常に突然変異が起きている
ライト-フィッシャー集団において、次世代に受け渡される遺伝子の総数は$ 2N個
生殖系列細胞ではある確率でDNAに突然変異が起こり、次世代に渡される
世代あたりの塩基配列の突然変異率を、塩基サイトあたり$ \muとすると、$ 2N\mu個の突然変異が毎世代集団中で起こることになる
現在のヒトの人口を$ 7\times10^9, \mu=1\times10^{-8}、ヒトのゲノムサイズを$ 3.2\times10^9とすると、毎世代あたり$ 4.5\times10^{10}、つまり450億個以上の点突然変異が、毎世代ヒト集団に生まれていることになる 集団の大きさが一定の状態で十分な時間が経過すると、毎世代集団に生まれる突然変異の数と、遺伝的浮動によって集団から失われる変異の数が等しくなると考えられる
2. 近交係数
https://gyazo.com/4538a5e67fe79d9d39c1e3260b29a58e
新たな突然変異は起こらないものとする
近交係数$ Fとは、個体Aがもつ二つのアレルが、共通祖先をもつために同じアレルである確率
共通祖先をもつために同じアレルであること
Aの祖父母には血縁関係がなかったと仮定すると($ F=0)、Aの近交係数は$ 1/16となる
親子同士・兄弟姉妹同士の近交係数は$ 1/4となる
より一般的に近交係数を定義
集団サイズ$ Nの二倍体集団の場合、$ t世代目における任意の個体における近交係数$ F_tは、$ t-1世代から$ t世代の個体に同じアレルが受け渡される確率が$ 1/2Nなので、次の式で表すことができる
$ F_t=\frac{1}{2N}+\left(1-\frac{1}{2N}\right)F_{t-1}\qquad(2.1)
式(2.1)を変形することにより、次の近似式が得られる
$ 1-F_t=(1-F_0)\left(1-\frac{1}{2N}\right)^t \approx (1-F_0)e^{-\frac{t}{2N}} \qquad (2.2)
$ 1-F_t: ランダムに選ばれた二つのアレルが$ t世代遡るとIBDでない確率
$ tとともに減少していく
したがって、同祖である確率=近交係数は時間とともに増加していく
この予測は、既に述べた遺伝的浮動を近親交配の面から捉えたものであり、両者は本質的に同じものであるといえる
3. 集団内の遺伝的多様性
式(2.1)と似たような計算を用いて、突然変異と浮動の釣合い状態における、集団中に見られる遺伝的多様性の推定値が得られる 世代ごとに遺伝子に突然変異が起こる確率を$ u とする
突然変異率はとても低いので、突然変異が2回以上起こって元の遺伝子配列に戻ることはないと仮定する
突然変異が起こるたびに、配列は別の状態へと変化する
式(2.1)に、突然変異について考慮を加えて式を導出
両親から受け取った遺伝子のどちらにも突然変異が起こらない確率は$ (1-u)^2
$ F_t=\left[\frac{1}{2N}+\left(1-\frac{1}{2N}\right)F_{t-1}\right] (1-u)^2 \qquad (2.3)
平衡状態における$ Fの推定値$ \hat Fについて、式(2.3)を変形
突然変異と浮動の釣り合いがとれた平衡状態では、$ F_t=F_{t-1}となる
$ uが十分小さいと仮定すると、$ u^2と$ uの項を無視することができる
$ \hat F = \frac{1}{4Nu+1} \qquad (2.4)
$ \hat Fは集団中からランダムに選ばれた二つのアレルが同じである割合の推定値であるから、ランダムに選ばれた二つの荒れるが異なっている割合の推定値$ \hat H=1-Fは次のようになる
$ \hat H = \frac{4Nu}{4Nu+1} \qquad (2.5)
式2.5中の$ 4Nuは、集団遺伝学のなかでよく現れる変数なので、特別に$ \thetaという変数を使う場合が多い
$ \thetaは集団内の遺伝的多様性を表すパラメータとして重要 $ \hat Hは、集団中からランダムに選んだ二つの遺伝子の配列が少しでも異なっている確率
この統計量は、サンプル間に見られる遺伝的変異を定量化するための、最も基本的なもの
ランダムに選んだ二つの遺伝子配列間に見られる塩基配列の違い(異なった塩基サイトの割合)
$ \hat Hの推定値は個々の塩基サイトについても成り立つので、配列全体で見られる違いの割合は$ \hat Hに等しくなる
また、塩基サイトあたりの突然変異率を$ \muとする
$ \muはとても低く、$ 4N\mu \ll 1と考えることができるので、塩基多様度の推定値を$ \hat \piとすると、
$ \hat \pi = 4N\mu \qquad (2.6)
$ \hat \piは配列の中で組換えが起こった場合でも、不偏(推定値に偏りがない)であることが知られている 4. 突然変異の固定確率
頻度が$ pであるアレルが、最終的に集団中に固定する確率(固定確率) 自然選択がない中立な変異の場合、頻度$ pの変異の固定確率は$ pとなる
これは直感的に理解出来、たとえば、$ p=1/2の場合、二つの同じ頻度のアレルが固定する確率は等しく、固定確率は$ 1/2となる
新しく起こった変異アレルの初期頻度は、前述したように$ 1/2N
したがって、新しい変異の固定確率も$ 1/2N
世代あたりに集団中に入ってくる変異の数は$ 2N\mu
したがって、世代あたりに固定する変異の数は$ 2N\mu \times 1/2N = \muとなり、突然変異率と等しくなる
単位時間あたりに固定する変異の数のこと
中立な突然変異だけを考えた場合、分子進化速度は突然変異率に等しくなる
2.2.5 自然選択
1. 適応度
これまでと同じく二倍体の場合を考える
https://gyazo.com/668db8968bb8a537a1a0fd82b334f631
有性生殖を行う生物は、生存、交配、生殖というサイクルを繰り返し繁殖していく 広い意味でも適応度とは、このサイクルひとまわりを考え、次の世代に子供を他の個体より多く、もしくは少なく残す度合いの期待値を表す
ここで重要なのは遺伝子型による効果だけを考えること
適応度がある遺伝子におけるアレルAによって決まっているとする
アレルAをホモ接合でもった個体に比べて、変異アレルaをホモ接合でもった個体が、相対的にsだけ子供を残しやすいとする
適応度はある集団の中での相対的な有利さ、不利さを示すので、各個体の適応度を次のように表す事ができる
table: 表2.1 遺伝子型と適応度の対応
遺伝子型 AA Aa aa
適応度 1 1+hs 1+s
sは変異アレルの適応度係数
hはその顕性の程度を表す係数
ヘテロ接合個体の適応度を決めるパラメータ
実際の自然界の場合、顕性形質と潜性形質がはっきりと区別できるとは限らない
特に$ h=0.5の場合には、ヘテロ接合体は二つのホモ接合体の中間の適応度をもつが、この場合は数学的な取り扱いが楽なので、集団遺伝学モデルでは$ h=0.5を仮定することが多い
$ hが$ 0と$ 1の間に収まらない場合も考えられる
$ s>0かつ$ h<0の場合にはヘテロ接合個体はホモ接合個体よりも常に低い適応度をもつ
$ s>0かつ$ h>1の場合には、ヘテロ接合体がホモ接合体よりも常に高い適応度をもつ
オーバードミナンスが実際に起こっている例は、まれであるが存在する
通常、新しく生まれた変異は、遺伝的浮動の効果によっていつかは集団から除かれてしまうが、オーバードミナンスの表現型をもつ変異は集団中に長い間保たれることになる いくつもの異なったアレルが長い間維持されるような淘汰
古典的な集団遺伝学では、オーバードミナンスが集団内の変異を維持するための中心的な機構であると信じられてきたが、現在ではむしろ特殊な例であると考えられている
2. 自然選択下における突然変異の固定確率
中立の場合と同じく、自然選択がはたらく場合の変異の固定確率は、拡散方程式をもって近似することができる
特に$ h=0.5のとき、有効集団サイズが$ Nの集団において、初期頻度$ 1/2Nである変異の固定確率$ F(s)は、中立な変異の固定確率を$ 1とすると、次のように近似される
$ F(s)= \frac{2Ns}{1-e^{-2Ns}} \qquad (2.7)
$ sが大きくなればなるほど固定確率は高くなる
変異が有利なほど集団に広まりやすくなり、不利なほど広まる確率はほぼ$ 0になる
e.g $ Ns=-10のとき
$ F(s)=4.12\times10^{-8}となり、このような変異が集団中に広まる確率は非常に低い
これは$ N=10,000のとき$ s=-0.001つまり、変異をホモ接合でもった個体の適応度が、およそ$ 0.1\%下がることに相当する
この程度の適応度の低下は、通常行われる野外または実験室の実験においては観察できない
短期間の実験で観察できないようなレベルの有害度であっても、長期間の生物の進化を考えた場合には、非常に大きな効果を持つことが予測される
式(2.7)において、$ sが常に$ Nとの積で現れている
$ Nの大きさは遺伝的浮動の効果と負の相関を示す
集団サイズが10倍大きくなると、自然選択の有効性もおよそ10倍大きくなるということになる
このときの固定確率を図示したもの
https://gyazo.com/dd20a13ddaa725de2de8157ee75e6496
注目すべき点
$ sが十分大きければ、相対的な固定確率は$ 2Nsによって近似できる
たとえば、$ N=10000, s=0.001では$ 2Ns=20であるから、そのような変異の置換速度は、中立なものと比べておよそ20倍速くなる
たとえ生存に0.1%だけ有利な変異であっても、その置換速度は桁違いに早くなるということ
$ 2Ns<0でも$ F(s)がそれほど小さくならない$ sの範囲が存在する
つまり、たとえ$ s<0であっても、低確率ではあるが固定することのできる有害な変異が存在するということ
一般に$ |2Ns| \approx 1付近では自然選択と遺伝的浮動との効果が同じくらいの力で働いている このような変異が進化上重要な役割を担っているという説
中立説では変異を定性的に分ける(有害/中立/有利)が、ほぼ中立説ではより連続的なものとして捉えている
ほぼ中立的な変異の固定確率は、自然選択の強さだけでなく、集団サイズのち外によっても変わってくるので、変異の分布や固定確率が集団サイズに依存するという予測が立てられる
3. 弱い淘汰と集団内の変異
正の自然選択が働く場合($ s>0)、変異の頻度は総じて中立変異よりも高くなるが、$ sがとても大きければ、そのような変異はあっという間に固定してしまうので、集団内の頻度にはそれほど影響を与えない
負の自然選択が働く場合($ s<0)も同様に、選択がとても強ければそういった変異はそもそも集団に現れることがない
同義変異はアミノ酸配列を変えないので、進化的に中立であると仮定すると、アミノ酸を変化させるような非同義変異のほうがより低頻度に偏って分布すると予想される(非同義変異のほとんどは湯外であると考えられる) 実際に多くの生物において観察されている非同義変異は同義変異よりも低い頻度をもつものが多く、この観察結果は、多くの非同義変異が弱い淘汰を受けていることを示している Column 分子機構が明らかにされた自然選択の例
ヒトでよく知られているオーバードミナンスの例
ホモ接合個体はほぼ致死
ヘテロ接合個体は通常の環境では重篤な症状をとらない
マラリアに対して抵抗性をもつため、蔓延地域ではヘテロ接合個体の適応度が高くなっていることが知られている 地域特異的な自然選択の例
明色型・暗色型はそれぞれ明暗の色の砂の上で目立たなくなり、捕食を逃れやすい
ネブラスカ州には、サンドヒルと呼ばれる比較的新しい時代(1万~5万年前)に形成された明るい色の土壌を持つ地域があり、この地域には明色型を引き起こすASIP遺伝子の変異をもった個体が多い 変異が急速に広まった時代を遺伝子の多型パターンから推測すると、サンドヒルの形成時期と非常に近い値が得られる
2.2.6 突然変異、遺伝的浮動、自然選択
突然変異は、毎世代親から子に遺伝子が伝えられるたびに起こり、常に集団中に新しい変異が導入される 強い負の自然選択が働くような変異は、自然選択によって取り除かれ、集団中から失われる 強い正の自然選択が働くような変異は、急速に集団に固定する 中立な突然変異には遺伝的浮動の効果がはたらき、変異は世代とともに失われていくか固定する
適応度に弱い影響しか与えない変異については、自然選択と遺伝的浮動の両方がはたらくこともありうる
3つの力の釣り合い
ゲノム中の多くを占める、特別な機能をもたない領域では突然変異と浮動の釣合いによって集団内での変異パターンを説明することができる 遺伝子のコード領域機においてはこれに加えて自然選択の影響も考えなければならない
2.2.7 集団の分化
実際の生物についてHW平衡を見てみると、平衡状態よりは少しずれていることが多い 期待値と観察値のずれの原因となっている可能性が高いものは集団構造や近親婚
多くの生物において、集団の大きさは有限で、集団がさらに小さな集団に分かれていることが多い
アレル頻度が小集団間で異なっている場合がある
ある集団の中に集団構造があるのにもかかわらず、それに気づかず一つの集団として扱ってしまうと、HW平衡で予想されるよりもホモ接合体の割合が大きくなることになる
計算例
https://gyazo.com/6fd737348cfa6991fac6cc2e53df6ec7
アレルAについて、同じ大きさである二つの集団愛でのアレル頻度をそれぞれ$ p_1, p_2とする
集団構造を考えず、二つの集団をひとまとめに解析した場合、全体でのアレルAの頻度は$ (p_1+p_2)/2となる
HW平衡より予想されるAのホモ接合個体は$ (p_1+p_2)^2/4
実際にそれぞれの集団から同数のサンプルを取った場合、それぞれの集団でのAのホモ接合個体の頻度は$ p_1^2, p_2^2となるから、その平均は$ (p_1^2+p_2^2)/2となる
後者から前者を引くと、その差は$ (p_1-p_2)^2/4となる
この値は、$ p_1=p_2のときは$ 0であるが、そうでない場合は常に正の値をとる
実際は集団構造をとっているのに、ひとまとめに解析を行うと、観察されるホモ接合個体の頻度が、HW平衡から期待される値より多くなってしまう
集団の分化は生物進化において非常に重要な問題
集団構造は地理的分布と対応することが多い
さらに、分集団がより小さな分集団に分かれるといったような複雑な階層構造をとることもある
人類集団 > 東アジア人集団 > 日本列島人集団 > 地域ごとの遺伝的集団
ある集団が二つに分かれたと仮定する
それぞれの集団で遺伝的浮動によるアレル頻度の変化と新しい変異の導入が起こるので、二つの集団の間でのアレル頻度が異なった値になることがある
このとき、集団が小さいほど遺伝的浮動によるアレル頻度の変化は速く起こるので、時間あたりのアレル頻度の違いは大きくなる
分集団どうしが遺伝的に完全に隔離されていない場合も多い
集団間での移住は、遺伝的浮動によるアレル頻度の変化を均質化する力として働く
集団間のアレル頻度の違いは、集団の分岐年代が古かったり、それぞれの有効集団サイズが小さかったりするほど大きくなり、集団間の移住率が高いほど小さくなる
着目しているゲノム領域が進化的に中立である場合、集団間の分化の度合いは、上に挙げた、分岐年代、集団の大きさ、移住率の3つの要素によって主に決まってくる
遺伝子頻度の違いを定量化するための統計量の一つとして$ F_{\mathrm{ST}}がある
本来、近交係数を表す$ F統計量より定義されたが、現在では様々な定義が使われている 集団間での遺伝子頻度の違いが大きいほど大きくなるような統計量
ゲノム上のSNPについてそれぞれ$ F_{\mathrm{ST}}を計算する場合を考える
ゲノム全体が中立的に進化していると考えると、ゲノム全体(バックグラウンド)の分化度は、上記の3要素(分岐年代, 集団の大きさ, 移住率)によって決定されるだろう
したがって、他の領域よりも有意に大きい$ F_{\mathrm{ST}}をもつゲノム領域は、自然選択によって形成されたと考えるほうが自然
人類集団間で遺伝子の分化度が自然選択によって高くなっている例
肌や目の色の濃さ
髪の毛の太さ
反対に、集団間での分化度が、中立のときよりも低くなる要因としては、平衡淘汰の影響が考えられる 2.2.8 連鎖
前項まで、あるサイトでのアレル頻度の変化は、ほかのサイトでのアレル頻度の変化と相関がないものとして考えていた
これは、同一染色体上に乗ったアレルは、同時に子孫に伝えられるという物理的理由による
ただし、二倍体以上の生物においては、アレル間の連鎖は、毎世代ごとに組換えにより解消される可能性が存在している また、別の染色体のサイト間では、そもそも連鎖は発生しない
反対に、単数体生物や真核生物のオルガネラがもつゲノムにおいては、通常すべてのサイト間に連鎖が生じる
新しい変異は、集団中のいずれかの染色体に起こる
二つのサイト1と2に突然変異が起こる場合を考える
サイト2で起こった突然変異を突然変異B→bとする
このとき、サイト2の近傍のサイト1において、最初に突然変異B→bが起こった染色体ではすでに、突然変異A→aが起こっていたとしよう
その後、変異bをもった染色体が、遺伝的浮動により頻度をある程度上げた場合を考えてみる
もしサイト1と2の間に組換えが起こらなかったとすると、アレルbは常にアレルaと同じ染色体上に存在することになる
染色体レベルでのアレルの組み合わせ
アレルAとa、Bとbの頻度をそれぞれ$ p_A, p_a, p_B, p_bとし、ハプロタイプAB, Ab, aB, abの頻度をそれぞれ$ p_{AB}, p_{Ab}, p_{aB}, p_{ab}とする
https://gyazo.com/34822ec709399a0c44d7db56378b5afb
サイト1と2の間に組換えが起こると、最初に存在した組み合わせが混ぜ合わされていく
したがって、aの存在とbの存在との相関が減っていき、最終的には無相関になる
連鎖平衡から予想される期待値と観察値との違い
$ \begin{aligned} p_{AB} & = & p_Ap_B & +D \\ p_{Ab} &= & p_Ap_b & -D \\ p_{aB} &= & p_ap_B & -D \\ p_{ab} &= & p_ap_b& +D\end{aligned} \qquad (2.8)
$ Dは次のようにも表すことができる
$ D=p_{AB}p_{ab}-p_{Ab}p_{aB} \qquad (2.9)
また、連鎖不平衡量をハプロタイプに見られるアレルAとBとの相関で評価する方法もある
アレルAとBとを$ 0、aとbとを$ 1といったようにラベルすることにより(ピアソンの)相関係数を用いて評価することができる 相関係数$ Rと連鎖不平衡量$ Dとの関係は、次のようになることがわかっている
$ R^2=\frac{D^2}{p_Ap_ap_Bp_b}\qquad(2.10)
$ D値はアレル頻度の影響を強く受けるので、異なったサイト間の$ D値を比較することは難しい
そのため、$ D値がとりうる最大値と最小値によって基準化した$ D'という統計量がしばしば用いられる
同様に、相関係数$ Rは常に$ -1から$ 1の間の値をとるため、サイト間の比較が容易
ヒトの場合、ゲノム上で数十kbp程度離れたサイト間においても、連鎖不平衡を観察することができる
2.2.9 遺伝子系図
1. 合祖過程
我々が知りたいのは、過去に起こった出来事であることが多い
現在観察されている事象から、過去に何が起こったか
我々の遺伝子を例に考える
集団中からランダムに取り出された二つの遺伝子は、時間をさかのぼっていくと、必ずどこかで共通祖先をもつ
有効集団サイズ$ Nの二倍体集団では、集団内に$ 2N個の遺伝子が存在するので、1世代さかのぼったときに、その二つの遺伝子が共通祖先から由来している確率は$ 1/2N
https://gyazo.com/4a42e17938829de7fcd1475e9f42cf1b
反対に、それぞれ別の祖先から由来している確率は$ 1-1/2N
同様にして$ t世代さかのぼったときに、二つの遺伝子が共通祖先を持つ確率$ P_tは、次の幾何分布によって表すことができる $ P_t=\frac{1}{2N}\left(1-\frac{1}{2N}\right)^{t-1} \qquad (2.11)
$ P(t)=\frac{1}{2N}e^{-\frac{t}{2N}} \qquad (2.12)
この指数分布の平均値は$ 2N, 分散は$ 4N^2(単位は世代)
つまり、ヒトの集団サイズをおよそ10,000と仮定した場合、集団から適当に二つの遺伝子を取ってくると、その二つはおよそ20,000世代くらい前に共通祖先をもつことが期待される
ただしこの値は期待値であるので、指数分布の性質上、多くの遺伝子はそれよりも最近に共通祖先を持つことに注意
集団中の遺伝子が時間をさかのぼることによって共通祖先をもつ過程
2. 遺伝子系図
配列間の祖先関係
集団中からいくつも配列をサンプリングしてくると、それらの間には複雑な祖先関係が存在する
集団から$ i個のアレルをサンプルしたとする
https://gyazo.com/036a4200922cdac897f1a0b17c0760dd
時間をさかのぼっていくと、$ i個のサンプルのうち、ランダムに選ばれた二つが共通祖先をもつように合祖し、その結果、サンプル数は$ i-1個となる
この過程を、サンプルが最後の一つになるまで繰り返す
モデルを単純化するために、同時に三つ以上のサンプルが合祖することはないと仮定する
すでに示したように、時間をさかのぼっていくとき、ランダムに選ばれた二つのサンプルが一つに合祖するまでの待ち時間の分布は式(2.12)によって表すことができる
また、$ i個のサンプルからランダムに二つを選び出す組み合わせは$ i(i-1)/2通りとなる
したがって、単位時間あたりに二つのサンプルが共通祖先をもつ確率は、$ 1/2Nに$ i(i-1)/2を掛けた$ i(i-1)/4Nとなる
したがって、合祖までの待ち時間$ P(t)は、式(2.12)の$ 1/2Nを$ i(i-1)/4Nで入れ替えた、次の確率密度関数で表される $ P(t)=\frac{i(i-1)}{4N}e^{-\frac{i(i-1)t}{4N}} \qquad (2.13)
サンプル数が少ないほど、合祖が起こるまでにかかる時間は長くなってくる
図2.13の例では、最初に合祖が起こるまでの時間$ T_1は$ T_2よりも短い
式(2.13)において、待ち時間の期待値は$ 4N/i(i-1)であるので、$ n個のサンプルが最終的に一つになるまでの期待値$ T_{\mathrm{all}}(n)は、次の式で示される
$ T_{\mathrm{all}}=\sum_{i=2}^n \frac{4N}{i(i-1)}=\frac{4N(n-1)}{n} \qquad (2.14)
次に遺伝子系図全体での枝の長さを考える
$ i個から$ i-1個になるまでの時間の期待値は$ 4N/i(i-1)であるが、その時間に相当する枝の数は$ i本
したがって、その期間内の枝の長さの合計の期待値は$ 4N/(i-1)となる
よって、枝の長さの合計の期待値$ E[L] は、次のようになる
$ E[L] = 4N \sum_{i=2}^n \frac{1}{i-1}=4N \sum_{i=1}^{n-1} \frac{1}{i} \qquad (2.15)
また、世代あたりの突然変異率を$ \mu とすると、系図全体で起こる変異数の期待値$ E[S] は次のようになる
$ E[S]=4N\mu\sum_{i=1}^{n-1}\frac{1}{i} \qquad (2.16)
したがって、この期待値は、後に3.2.1項で示すサンプル中の多型サイト数$ Sと等しくなる
また、ランダムに選んだ二つの配列が合祖するまでの時間の期待値は$ 2Nであるから、ランダムに選んだ二つの配列の間の塩基配列の期待値は$ 4N\muに等しくなる
この値は、式(2.6)で示した塩基多様度$ \piの推定値と等しい 3. 合祖過程を考える利点
後ろ向きの過程を考える利点
理論的なシンプルさ
前向きの確率過程を考えるためには、拡散方程式など数学的に取り扱いにくいモデルを考えなければならない
コンピュータによるシミュレーションのやりやすさ
実際の生物に起こった進化の歴史は複雑で、特定の集団動態をとったときの塩基多様度の期待値などを解析的に求めることは難しい
解析的な解を得るのが難しい場合には、コンピュータを用いたシミュレーションが有効
得られたサンプルから合祖過程に基づいて共通祖先までさかのぼる
世代ごとのアレル頻度の変化を記録する前向きシミュレーションと違い、合祖が起こった世代の情報のみを記録していくので、一般的にはよい効率をもつ
合祖過程の欠点
自然選択が働いた場合のモデルを立てることが難しく、単純な仮定のもとで自然選択がはたらいたときの、近似的な遺伝子系図しか得ることができない
したがって、複数の突然変異が適応度に影響を及ぼすような、ある程度複雑な自然選択を考えたシミュレーションを行う場合には、一般的に前向きシミュレーションを用いる
つまり合祖過程は、変異を中立と仮定した場合には強力なモデルとなりうるが、そうでない場合には、他のモデルがより適切な場合もある
2.3 長期的な進化(分子進化)
2.3.1 遺伝子配列はなぜ似ているのか
長期的な進化を考える場合は、固定された変異(置換)に注目する 例えば、ヒト、ハツカネズミ、ショウジョウバエ、線虫、シロイヌナズナ(Arabidopsis thaliana)の遺伝子のDNA塩基配列をそれぞれ比べた場合、その違いのほとんどは集団中に固定した塩基置換
集団中に存在する多型は割合的にとても少ないので、ほとんど無視することができる 通常われわれはとくに意識することなく、塩基・アミノ酸配列の類似性を利用して物事を考えている
例: ヒトの遺伝子Aとハツカネズミの遺伝子Aの塩基配列を比較
なぜ、ヒトとハツカネズミの遺伝子Aは似たような遺伝子配列を持っているか
e.g. コウモリと鳥の羽の「飛ぶ」機能
共通祖先から進化したからだということをまず考える
突然変異が有害→負の自然選択がはたらく→集団中に固定しない 有利な配列→進化的に保存→その保存性が配列の類似性を生み出す
進化的な原因による配列どうしの類似性
共通祖先をもつことを原因として類似している配列同士
ホモログの中にオルソログとパラログがあると理解しておくとよい
進化的な類似性の原因
https://gyazo.com/19e3e25962ee08e55a9008bdbd53ddf6
種分化によって分岐した遺伝子どうし
様々な分子機構により、塩基配列はそのコピーを同じゲノムの中に作ることがある
遺伝子重複も突然変異の一種であると捉えることができる
もし1個体で起こった遺伝子重複が集団中に固定すると、その遺伝子重複は種ごとの遺伝子数の違いとして表れる
遺伝子重複のあと、それぞれのコピーに塩基置換が起こると、時間が立つにつれて二つのコピーの配列間に違いが出てくる
遺伝子重複によるコピーどうし
2.3.2 分子系統樹の読み取り
相同な配列間には進化的な関係が存在する
ごく最近に共通祖先から派生した配列どうしはとても似通っているし、分岐してから長い時間が経った配列どうしはより多くの置換を含んでいる
極端な例では、時間が経ちすぎて、配列どうしに類似性を見つけることが不可能かもしれない
配列間の系統関係を表す
https://gyazo.com/36958f53eb652fbace951ba0bd7aa61e
各部
二つの配列が分岐してからそれぞれに起こったサイトあたりの置換の数
遺伝子配列後の置換は枝で起こり、枝の長さは通常そこで起こった置換の数に比例するように描かれる
枝の長さが進化距離を表している場合は、通常、分子系統樹と一緒にスケールを表示する
分子系統樹は階層構造をとる
葉a, bのように祖先を共有する葉の集まり
祖先を共有する葉だけで構成されている生物の集合
単系統群と逆に、形態等を指標とした生物の分類群が分子系統樹に一致しない場合
ある葉のグループについて、それらが共通祖先に行き着くまでに、違った分類群の葉が同じクレードに混じる分類群
例
図2.15のa, b, cが同じ生物の分類群に属していた場合
爬虫類は系統的に鳥類を含んでいるため、爬虫類と鳥類を別とみなす分類法においては、単系統群ではなく側系統群となる
遺伝子の系統関係からどのように遺伝子重複が起こったのかを読み取れるか
https://gyazo.com/44c5596744f83bd9388c17409565846e
これらの遺伝子はそれぞれのゲノムの中にあるホモログが全て示されているとする
実際にはゲノムが完全に解読されているとは限らないので、見つかっていない遺伝子がある可能性にも注意
魚類と哺乳類の共通祖先が分かれた後に遺伝子AとBの重複が起こり、その後ヒトの系統では遺伝子Bの欠損が起こったということが読み取れる
分子系統樹が常に正しく推定されているとは限らないことにも注意
2.3.3 分子進化の中立説
実際に異なる種のオルソログのアミノ酸配列を比較してみると、まったく同じということはほとんどなく、多くの置換が観察される
「遺伝子機能に重要な配列は保存される」ということであったが…
1960年代の議論
これらの置換は、
正の自然選択の働きにより、生物のそれぞれの生息環境に有利な変異が置換したものだったのか
機能的に重要ではない中立な変異が集団中に固定したものだったのか
分子生物学技術を利用して、いくつかの生物種のオルソログのアミノ酸配列を比較
置換の速度はタンパク質によって異なっている
それぞれのタンパク質においては、置換の数と生物種間の分岐年代には、ほぼ比例するような関係が見られた
異なった生物種のオルソログを比較することによって、その2種の分岐時間が推定できる
配置間の置換数が時間に比例することの意味
比例している=置換速度が一定ということ
もし置換の多くが正の自然選択によるものだとすると、その生物の生息環境などの違いが原因となって、タンパク質の進化速度は生物種ごとに大きく異なると考えられる
$ Nsが生物種ごとに違うということ
様々な分子データが明らかになってくると、この比例関係は、様々な種で、さまざまなタンパク質で成り立っていることがわかった
中立な変異の置換速度は突然変異率($ \mu)に等しくなる
それならば、進化速度の一定性は、置換した変異が中立であり、いろいろな生物で$ \muが一定であるということを仮定するだけで説明できる
また、遺伝子ごとに置換速度が異なるのは、起こった突然変異が有害である割合が異なると考えれば説明できる
「集団中に固定した変異のほとんどは、進化的に中立である」という仮説は、これまでに何度か触れた中立説の中核を端的に表した説明 正の自然選択に関しては、単にその割合が「それほど多くはない」といっているだけで、本質的な議論は量的に議論されるべき
分子時計が成り立つことによって、遺伝子がもつ情報から過去を量的に推定することが可能になった
これはすべて中立説を前提としているおかげ
中立説のもとで、二つの配列がどのくらい昔に分岐したのかを推定する問題を考えてみよう
https://gyazo.com/55037c2c5c7014e8f6e4ea3ef961352b
$ T年前に共通祖先から分岐した二つの配列の間に起こった、サイトあたりの置換数を$ d, 年あたりサイトあたりの突然変異率を$ \muとすると、共通祖先から分岐したあと、置換はそれぞれの系統で起こるので$ d=2T\muとなる
したがって、$ dと$ \muの値を知ることができれば、$ Tが推定できる
また、$ \muが不明な場合であっても、化石などの証拠から分岐年代がすでにわかっている2種間での置換数がわかれば、その値を利用して$ \muの値を知ることができ、$ Tが未知の種間について分岐年代の推定が可能
Column 二つのレベルの進化の境界領域
本章2.1節では、進化を時間的な視点に立って二つのレベルに分けた
現実の進化は連続的な過程であり、二つのレベルの進化を完全に分けることはできない
その効果がよく現れるのが近縁種の分岐過程
近縁種から二つの遺伝子をとって、その共通祖先にたどり着くまでの時間を見てみると、その分岐は、種が分かれた時間に加えて、祖先集団で合祖が起こる時間が含まれる
したがって、図2.17で仮定したような方法を用いて種の分岐時間を推定すると、分岐時間を過大推定してしまうことがある
このような場合は、祖先集団における過程と、その後の分岐における過程の両方を考えなければならない
https://gyazo.com/b188d6c1efd24de6aa2f9b926f70d107
解析に適した方法がいくつか提案されている
「種とは生殖的に隔離された集団である」という一般的な理解に反して、近縁種間での交配が起こり、遺伝子が交換される このような場合にも、種より上のレベルの遺伝子解析に、集団遺伝学的観点を取り入れなければならない